Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times.
translated by 谷歌翻译
The modern dynamic and heterogeneous network brings differential environments with respective state transition probability to agents, which leads to the local strategy trap problem of traditional federated reinforcement learning (FRL) based network optimization algorithm. To solve this problem, we propose a novel Differentiated Federated Reinforcement Learning (DFRL), which evolves the global policy model integration and local inference with the global policy model in traditional FRL to a collaborative learning process with parallel global trends learning and differential local policy model learning. In the DFRL, the local policy learning model is adaptively updated with the global trends model and local environment and achieves better differentiated adaptation. We evaluate the outperformance of the proposal compared with the state-of-the-art FRL in a classical CartPole game with heterogeneous environments. Furthermore, we implement the proposal in the heterogeneous Space-air-ground Integrated Network (SAGIN) for the classical traffic offloading problem in network. The simulation result shows that the proposal shows better global performance and fairness than baselines in terms of throughput, delay, and packet drop rate.
translated by 谷歌翻译
This paper proposes a hardware-efficient architecture, Linearized Convolution Network (LiCo-Net) for keyword spotting. It is optimized specifically for low-power processor units like microcontrollers. ML operators exhibit heterogeneous efficiency profiles on power-efficient hardware. Given the exact theoretical computation cost, int8 operators are more computation-effective than float operators, and linear layers are often more efficient than other layers. The proposed LiCo-Net is a dual-phase system that uses the efficient int8 linear operators at the inference phase and applies streaming convolutions at the training phase to maintain a high model capacity. The experimental results show that LiCo-Net outperforms single-value decomposition filter (SVDF) on hardware efficiency with on-par detection performance. Compared to SVDF, LiCo-Net reduces cycles by 40% on HiFi4 DSP.
translated by 谷歌翻译
安全与其他交通参与者的互动是自动驾驶的核心要求之一,尤其是在交叉点和遮挡中。大多数现有的方法都是为特定场景设计的,需要大量的人工劳动参数调整,以应用于不同情况。为了解决这个问题,我们首先提出了一个基于学习的交互点模型(IPM),该模型描述了代理与保护时间和交互优先级之间的相互作用以统一的方式。我们将提出的IPM进一步整合到一个新颖的计划框架中,通过在高度动态的环境中的全面模拟来证明其有效性和鲁棒性。
translated by 谷歌翻译
审核数据出处(ADP),即如果使用某个数据来训练机器学习模型,则审核是数据出处的重要问题。在某些条件下,例如标签信息的可用性和目标模型的培训协议的知识,现有的审核技术(例如影子审计方法)已经证明了任务的可行性。不幸的是,这两种情况在实际应用中通常无法使用。在本文中,我们通过差异审核(DPDA)介绍数据出处,这是一个实用的框架,用于基于统计学上显着的差异,即在精心设计的转换之后,通过不同的方法进行审核数据出处,从目标模型的训练集中扰动输入数据将结果结果与模型的非训练集相比,输出的变化更大。该框架允许审核员将培训数据与非训练数据区分开,而无需借助标记的输出数据训练任何阴影模型。此外,我们提出了两个有效的审核函数实现,即一个加性功能和一个乘法。我们报告对现实世界数据集的评估,以证明我们提出的审计技术的有效性。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
图像美学质量评估在过去十年中很受欢迎。除数值评估外,还提出了自然语言评估(美学字幕)来描述图像的一般美学印象。在本文中,我们提出了美学属性评估,即审美属性字幕,即评估诸如组成,照明使用和颜色布置之类的美学属性。标记美学属性的注释是一项非平凡的任务,该评论限制了相应数据集的规模。我们以半自动方式构建了一个名为DPC-CAPTIONSV2的新型数据集。知识从带有完整注释的小型数据集转移到摄影网站的大规模专业评论。 DPC-CAPTIONSV2的图像包含最多4个美学属性的注释:组成,照明,颜色和主题。然后,我们根据BUTD模型和VLPSA模型提出了一种新版本的美学多属性网络(AMANV2)。 AMANV2融合了带有完整注释的小规模PCCD数据集和带有完整注释的大规模DPCCAPTIONSV2数据集的混合物的功能。 DPCCAPTIONSV2的实验结果表明,我们的方法可以预测对4种美学属性的评论,这些评论比上一个Aman模型所产生的方法更接近美学主题。通过图像字幕的评估标准,专门设计的AMANV2模型对CNN-LSTM模型和AMAN模型更好。
translated by 谷歌翻译
现有的步态识别方法要么直接从原始步态序列建立全局特征表示(GFR),要么从几个本地部分生成本地特征表示(LFR)。但是,随着在更深层次的网络层中,GFR倾向于忽略人类姿势的局部细节。尽管LFR允许网络专注于每个局部区域的详细姿势信息,但它忽略了不同地方部分之间的关​​系,因此仅利用了几个特定区域的有限本地信息。为了解决这些问题,我们提出了一个名为GaitGL的基于全球的步态识别网络,以生成更具歧视性的特征表示。具体来说,开发了一个新颖的全球和局部卷积层(GLCL),以充分利用每一层中的全局视觉信息和局部区域细节。 GLCL是一种双支分支结构,由GFR提取器和基于掩模的LFR提取器组成。 GFR提取器旨在提取上下文信息,例如各个身体部位之间的关系,并提出了基于掩码的LFR提取器,以利用当地区域的详细姿势变化。此外,我们引入了一种基于面膜的新型策略,以提高局部特征提取能力。具体而言,我们设计了一对互补口罩以随机遮住特征图,然后在各种封闭的特征图上训练我们的基于面具的LFR提取器。通过这种方式,LFR提取器将学会完全利用本地信息。广泛的实验表明,步态比最先进的步态识别方法更好。 CASIA-B,OU-MVLP,增长和GAIT3D的平均排名准确性分别为93.6%,98.7%,68.0%和63.8%,明显优于竞争方法。拟议的方法在两场比赛中赢得了一等奖:HID 2020和HID 2021。
translated by 谷歌翻译
由于这些要求的竞争性质,尤其是在一系列的运行速度和条件下,在转向控制中的准确性和误差融合与优美运动的平衡路径与优美的运动具有挑战性。本文表明,考虑滑移对运动学控制,动态控制和转向执行器速率命令的影响的集成多层转向控制器可实现准确且优美的路径。这项工作建立在多层侧滑和基于YAW的模型上,该模型允许派生控制器考虑由于侧滑而引起的误差以及转向命令和优美的侧向运动之间的映射。基于观察者的侧滑估计与运动控制器中的标题误差相结合,以提供前馈滑移补偿。使用基于速度的路径歧管,通过连续变量结构控制器(VSC)来补偿路径以下误差,以平衡优雅的运动和误差收敛。后台动态控制器使用结果偏航率命令来生成转向率命令。高增益观察者(HGO)估计输出反馈控制的侧滑和偏航率。提供了输出反馈控制器的稳定性分析,并解决了峰值。该工作仅针对侧向控制,因此转向控制器可以与其他速度控制器结合使用。现场结果提供了与相关方法的比较,这些方法在不同的复杂情况下证明了具有不同天气条件和扰动的不同复杂情况。
translated by 谷歌翻译
预计机器学习算法的大多数实际问题都可以通过1)未知数据分配来解决这种情况; 2)小领域特定知识; 3)注释有限的数据集。我们通过使用潜在变量(NPC-LV)的压缩提出非参数学习,这是任何数据集的学习框架,这些数据集具有丰富的未标记数据,但很少有标签的数据。通过仅以无监督的方式训练生成模型,该框架利用数据分配来构建压缩机。使用源自Kolmogorov复杂性的基于压缩机的距离度量,加上很少的标记数据,NPC-LV无需进一步的训练而进行分类。我们表明,在低数据制度中,NPC-LV在图像分类的所有三个数据集上都优于监督方法,甚至超过了CIFAR-10上的半监督学习方法。我们证明了如何以及何时使用负面证据下降(Nelbo)作为分类的近似压缩长度。通过揭示压缩率和分类精度之间的相关性,我们说明在NPC-LV下,生成模型的改进可以增强下游分类精度。
translated by 谷歌翻译